什么是二分变量 (Dichotomous Variable)?

作者:Ruben Geert van den Berg,归属于 T检验 (T-Tests) & 统计学 A-Z (Statistics A-Z)

二分变量 (Dichotomous variable) 是一种只包含两个不同值的变量。我们首先看一些例子来说明这一点。接下来,我们将指出区分二分变量和其他变量,为什么能更容易地分析数据和选择合适的统计检验。

例子

二分变量的例子

关于截图中的数据:

  • completed (完成情况) 不是 一个二分变量。它只包含一个不同的值,因此我们称它为一个常数 (constant) 而不是一个变量。
  • sex (性别) 是一个二分变量,因为它精确地包含两个不同的值。
  • married (婚姻状况) 不是 一个二分变量:它包含 3 个不同的值。如果我们将婚姻状况区分为“已婚”和“未婚”,那么它将成为二分变量。
  • q1 是一个二分变量:因为空单元格(缺失值 (missing values))总是从分析中排除,所以我们剩下两个不同的值。
  • q2 如果我们从分析中排除“无回答 (no answer)”类别,则是一个二分变量;否则就不是。

二分变量 - 它们的特殊之处是什么?

二分变量是最简单的变量。关键在于:

  • 给定样本量,二分变量的频率分布 (frequency distribution)可以用一个数字精确描述:如果我们有 100 个关于 sex (性别) 的观察值,其中 45% 是男性,那么我们就知道了这个变量的所有信息。

二分变量的频率分布

请注意,这不适用于其他类别变量 (categorical variables) :如果我们知道我们的样本(n = 100)中有 45% 的人是棕色眼睛,那么我们不知道蓝色眼睛、绿色眼睛等的百分比。也就是说,我们无法用一个数字描述精确的频率分布。

对于 度量变量 (metric variables) 也是如此:如果我们知道我们的样本(n = 100)的平均年龄恰好是 25 岁,那么我们不知道方差、偏度 (skewness) 、峰度等绘制 直方图 (histogram) 所需的信息。

二分变量既是类别变量又是度量变量

如果我们了解所涉及变量的 测量尺度 (measurement levels),选择正确的数据分析技术会容易得多。通常的分类包括类别变量(名义,序数)和度量变量(区间,比率)。然而,二分变量不适合这种方案,因为它们既是类别变量 又是 度量变量。

这种奇怪的特性(我们将在稍后说明)也证明了将二分变量视为一个单独的测量尺度是合理的。

二分结果变量 (Dichotomous Outcome Variables)

一些研究问题涉及二分因变量 (dependent variable)(结果变量)。如果是这样,我们使用比例 (proportions) 或百分比 (percentages) 作为描述性统计量来总结这些变量。例如,人们可能考虑或不考虑在 2017 年购买新车。我们可能想知道这样做的 百分比。这个问题可以用 二项检验 (binomial test)单比例 Z 检验 (z-test for one proportion) 回答。

单二分变量的二项检验

上述检验以及其他一些检验专门用于二分因变量。它们是周围最广泛使用(也是最简单)的统计检验之一。

二分输入变量 (Dichotomous Input Variables)

使用二分自变量 (independent variable)(输入变量)的检验的一个例子是独立样本 t 检验 (independent samples t-test),如下图所示。

独立样本 T 检验 - 一个二分变量和一个度量变量

在此检验中,二分变量定义了案例组,因此被用作类别变量。严格来说,独立样本 t 检验是多余的,因为它等同于 单因素方差分析 (one-way ANOVA)。但是,自变量仅包含 2 个不同的值大大简化了所涉及的计算。这就是为什么在大多数教科书中,此检验与更通用的 方差分析 (ANOVA) 分开处理的原因。

那些熟悉 回归分析 (regression) 的人可能知道,预测变量(或自变量)必须是度量变量或二分变量。为了包含类别预测变量,必须将其转换为多个二分变量,通常称为 虚拟变量 (dummy variables)

回归分析的二分虚拟变量

这说明在回归分析中,二分变量被视为度量变量而不是类别变量。

二分化变量 (Dichotomizing Variables)

最后但并非最不重要的一点是,有时会在自然二分变量和非自然二分变量之间进行区分。如果自然界中精确地存在 2 个值(性别、已婚或活着),则该变量是自然二分变量 (naturally dichotomous) 。如果一个变量在你的数据中恰好包含 2 个值,但在现实世界中可能包含更多值,则它是非自然二分变量 (unnaturally dichotomous)

从非二分变量创建非自然二分变量被称为 二分化 (dichotomizing)。最终的屏幕截图说明了一个方便但鲜为人知的技巧,用于在 SPSS 中执行此操作。

在 SPSS 中二分化变量